library(tidyverse)
library(data.table)
library(plotly)
library(tidyquant)
library(grid)
Para importar os dados será utilizada a função fread() do pacote data.table.
dados_teste <- fread("simulacao_ipea.csv")
dados_teste %>% head()
## ano orgao idade sexo uf escolaridade raca remuneracao
## 1: 1993 CNC 79 TO NA Indigena 6799.73
## 2: 2007 Uesb 33 F MS NA Branco 9843.94
## 3: 2011 Ufma 60 M MG 5 Preto 7416.29
## 4: 2000 Ifad 34 M AC 3 Pardo 9416.94
## 5: 2013 Uniube 67 F RN 5 Indigena 2769.03
## 6: 2019 Uneb 49 M PB 3 Pardo 6157.14
quest1 <- dados_teste %>% filter(sexo == "M" & idade >= 50 & uf == "BA" & ano == 2019) # realizando a filtragem
quest1 %>% head() #vendo parte dos dados
## ano orgao idade sexo uf escolaridade raca remuneracao
## 1: 2019 UFRPE 50 M BA 4 Pardo 5501.72
## 2: 2019 Ipaam 77 M BA 4 Pardo 7034.28
## 3: 2019 DNOCS 76 M BA 5 Indigena 5305.22
## 4: 2019 Cicir 63 M BA NA Pardo 8399.55
## 5: 2019 Apta 57 M BA 4 Branco 2756.98
## 6: 2019 ANS 68 M BA 4 Indigena 6713.25
quest1 %>% NROW() #quantidade de observacoes
## [1] 3184
quest2 <- dados_teste %>% filter(sexo == "F")
quest2 %>% head()
## ano orgao idade sexo uf escolaridade raca remuneracao
## 1: 2007 Uesb 33 F MS NA Branco 9843.94
## 2: 2013 Uniube 67 F RN 5 Indigena 2769.03
## 3: 2003 SBPC 80 F PA 2 Preto 7769.89
## 4: 1995 Icone 58 F PB 4 Branco 4562.37
## 5: 1991 UFPel 31 F RO 3 Amarelo 6311.04
## 6: 2005 Creai 60 F BA NA Pardo 9197.87
quest2 %>% count(ano, orgao) %>% arrange(desc(n))
## ano orgao n
## 1: 2017 ANA 875
## 2: 2017 SBB 875
## 3: 2018 SBF 872
## 4: 2018 ANA 858
## 5: 2018 SBB 832
## ---
## 10256: 1990 Abia 209
## 10257: 1990 UEM 209
## 10258: 1990 UnB 207
## 10259: 1991 Funceme 206
## 10260: 1990 Ufes 199
quest3 <- dados_teste %>% filter(ano == 2015 & orgao == "Ipea" & escolaridade %in% 1:5)
quest3 %>% head()
## ano orgao idade sexo uf escolaridade raca remuneracao
## 1: 2015 Ipea 36 PI 3 8727.11
## 2: 2015 Ipea 29 M RO 5 Amarelo 8202.24
## 3: 2015 Ipea 65 M MG 4 2616.22
## 4: 2015 Ipea 18 M BA 4 Pardo 8065.70
## 5: 2015 Ipea 49 M MT 4 Pardo 3232.24
## 6: 2015 Ipea 63 F RS 4 Pardo 1775.55
quest3 %>% count(escolaridade) %>% mutate(prop = round(100*(n/sum(n)), 1))
## escolaridade n prop
## 1: 1 80 7.7
## 2: 2 169 16.3
## 3: 3 250 24.2
## 4: 4 448 43.3
## 5: 5 87 8.4
quest4 <- dados_teste %>% filter(ano == 2010 & sexo == "F" & orgao == "UFSJ" & raca != "")
quest4 %>% head()
## ano orgao idade sexo uf escolaridade raca remuneracao
## 1: 2010 UFSJ 82 F SE 4 Branco 8119.00
## 2: 2010 UFSJ 51 F RS 3 Branco 2906.73
## 3: 2010 UFSJ 60 F BA 2 Pardo 5528.31
## 4: 2010 UFSJ 45 F MT 4 Pardo 8627.85
## 5: 2010 UFSJ 63 F DF 1 Amarelo 4352.05
## 6: 2010 UFSJ 60 F BA 2 Preto 9139.56
quest4 %>% count(raca) %>% arrange(n)
## raca n
## 1: Amarelo 25
## 2: Indigena 26
## 3: Preto 53
## 4: Pardo 85
## 5: Branco 114
dados_teste %>% summarise(n = length(ano))
## n
## 1 10000000
dados_teste %>% summarise(x1= min(ano), xn = max(ano))
## x1 xn
## 1 1990 2019
quest5 <- dados_teste %>% filter(sexo != "" & raca != "") %>% group_by(ano, sexo, raca) %>% summarise(remuneracao_media = mean(remuneracao), remuneracao_mediana = median(remuneracao),.groups = "drop") %>% mutate(sexo = if_else(sexo == "M", "Masculino", "Feminino"))
quest5 %>% head()
## # A tibble: 6 × 5
## ano sexo raca remuneracao_media remuneracao_mediana
## <int> <chr> <chr> <dbl> <dbl>
## 1 1990 Feminino Amarelo 5417. 5412.
## 2 1990 Feminino Branco 5406. 5358.
## 3 1990 Feminino Indigena 5429. 5446.
## 4 1990 Feminino Pardo 5444. 5448.
## 5 1990 Feminino Preto 5421. 5432.
## 6 1990 Masculino Amarelo 5428. 5401.
p <- quest5 %>% ggplot(aes(x = ano, y = remuneracao_media, color = raca)) + geom_line() + ylab("Remuneração Média") + labs(color='Raça/Cor') +
scale_y_continuous(limits = c(min(quest5$remuneracao_media), max(quest5$remuneracao_media))) +
theme(axis.text.y = element_text(angle = 90, hjust=1, size = 5),
axis.text.x = element_text(angle = 45, hjust=1, size = 5), panel.spacing = unit(3, "lines"),
axis.title.y = element_text(size=5),
axis.title.x = element_text(size=5)) +
facet_wrap(vars(sexo), scales = "free_y", ncol = 2)
ggplotly(p)
#Valores considerando as rendas medias
quest5 %>% ungroup() %>% group_by(raca, sexo) %>% summarise(media = mean(remuneracao_media), dp = sd(remuneracao_media), mediana = median(remuneracao_media), Q1 = quantile(remuneracao_media, probs = 0.25), Q3 = quantile(remuneracao_media, probs = 0.75),.groups = "drop")
## # A tibble: 10 × 7
## raca sexo media dp mediana Q1 Q3
## <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Amarelo Feminino 5431. 33.0 5423. 5415. 5448.
## 2 Amarelo Masculino 5431. 16.8 5428. 5420. 5441.
## 3 Branco Feminino 5429. 16.0 5433. 5419. 5440.
## 4 Branco Masculino 5430. 11.0 5431. 5422. 5437.
## 5 Indigena Feminino 5429. 26.3 5432. 5411. 5448.
## 6 Indigena Masculino 5437. 30.0 5438. 5416. 5457.
## 7 Pardo Feminino 5434. 15.7 5439. 5420. 5446.
## 8 Pardo Masculino 5425. 13.8 5425. 5417. 5435.
## 9 Preto Feminino 5434. 16.0 5433. 5424. 5439.
## 10 Preto Masculino 5428. 19.1 5422. 5413. 5438.
No gráfico acima são apresentadas as séries de 1990 a 2019 da renda média considerando os diferentes níveis de raça e sexo. O objetivo deste gráfico é tentar analisar a evolução da renda média ao longo dos anos, verificando a influência das variáveis raça e sexo. Além disso, tentar responder perguntas como: i) a raça é relevante para o nível da renda dos trabalhadores? ii) qual o impacto do sexo na renda dos trabalhadores? iii) qual será o impacto conjunto de raça e sexo na renda média dos trabalhadores?
A renda média para homens indígenas tem uma tendência de crescimento nos últimos 10 anos, enquanto que para as mulheres indígenas apresenta uma tendência de queda. Além disso, a renda média para os indígenas apresenta uma maior variação (para as mulheres o desvio-padrão é \(S = 26,3\) reais e para os homens é de \(S = 30,0\) reais) do que as observadas para a maioria das outras raças. Entretanto, a renda das mulheres amarelas apresenta uma maior variação geral (o desvio-padrão é \(S = 33\) reais). Por fim, a partir das medidas calculadas é possível notar que as rendas médias são bem similares independente da raça e do sexo (possível ver observando as médias e os quartis).